无线AC热备常见故障
故障一、WS热备没有成功,网络环境:AC1--核心1---防火墙--核心2--AC2
1、故障现象
WS热备没有成功,网络环境:AC1--核心1---防火墙--核心2--AC2
2、故障可能原因
1)两台AC的lo0地址是否路由可达
2)端口没有放通
3、处理步骤
(1)首先检查两台AC的loopback 0地址是否路由可达
(2)检查两台AC的热备配置是否完全一样(主备AC context 编号、ap-group、ap-config 配置是否一致)
(3)检查AC之间设备是否有防火墙或者配置acl 热备需要开放这些端口:TCP 6425、TCP 6435、UDP 7425、UDP 7435
(4)检查ap-config是否有配置ap-group 并且group在context里面
(5)AP/AC版本是否升级到最新且一致
4、故障解决
确认拓扑情况,发现AC之间还有防火墙,没有放通TCP 6425、TCP 6435、UDP 7425、UDP 7435 这些端口---放通后热备起来了
5、故障总结及注意
热备的很多故障都是主备AC配置不一样导致的,所以一定要仔细检查配置是否完全一模一样,推荐使用Beyond Compare 软件进行主备配置的核对。
故障二、热备环境下AC下部分ap无法正常在两台AC上上线
1、故障现象
热备环境,个别AP无法在主备AC上线
2、故障分析
(1)、检查主备AC配置包括ap-config run配置一致无误
(2)、查看版本一致均为B8P2版本5
(3)、查看AP到主备AC隧道正常通讯,ping大包正常
(4)、查看主备热备未起,但热备配置无误
(5)、检查主备AC上隧道地址正常ping大包正常通讯
(6)、怀疑中间链路过滤对应热备端口:UDP 6425 6435和TCP 7425 7435
3、故障解决
查看客户使用loopback 1地址建立隧道,更改为loopback0建立隧道后问题解决。
4、故障总结
热备情况建议是用loopback 0建立隧道,如果使用别的地址建立隧道需要进行以下配置:
如果做热备的时候,使用loopback地址做热备,但是AC和AP建立控制隧道的地址不是用lookback的地址,是用ac-c里面的ctr-ip自定义的,需要做如下修改:
Ruijie(config)# wlan hot-backup 1.1.1.1 这个地址一定要是lookback地址,用来建立热备的时候,AC的热备通信.
Ruijie(config-hotbackup�Cctx)# peer-ip [config-ip |real-ip | ipv4-address] (AC和AP建立隧道的ac-c 里面的ctr-ip )
配置热备实例下 AP 连接的对端 AC 设备地址,缺省使用配置的 ip 地址作为对端 ac 设备地址。
用非lookback地址做热备:
Ruijie(config)#wlan hot-backup 192.168.120.100
Ruijie(config-hotbackup)#local-ip 192.168.120.110
故障三 WS 无线热备,一部分AP在备AC上不上线
1、故障描述:
两台AC做热备,但是两台AC的AP在线数量不一致(主AC上AP在线73台,备AC上只在线38台),其中AP均为AP-3220或AP-530两种型号 。拓扑:
AC=核心--接入交换机--AP,AP地址池网关在核心,两台AC旁挂核心,并且通过AP管理段地址互联
2、故障排查:
1)、首先对比两台AC之间的配置,AC以及AP的版本等,发现基本一致,故排除因版本或配置导致该问题的发生;
2)、对比主备AClicense,均足够,并且查看热备状态UP,使用loopback0地址建立隧道;
3)、测试故障AP能够正常ping通主AC隧道地址,但无法ping通备AC隧道地址,并且无法ping通备AC与核心互联地址(互联地址与AP管理同一vlan).查看ARP未学习到,但故障AP正常ping通网关,在网关上也能够ping通备AC互联地址。备AC上查看故障AP,其ARP未学习到,手动绑定测试故障依旧;
4)、当前初步确定是链路不通问题导致。测试电脑接入交换机接入故障AP的端口测试电脑正常ping通。尝试AP上clear ap flash后故障依旧;
5)、将问题AP和正常AP所在的交换机端口互换,问题AP仍不被备AC发现,正常AP正常工作;
6)、借用客户端剩下的一台AP(型号AP-530)作为测试,连接到POE交换机上,发现主备两台AC都能正常发现AP;
7)、为了进一步排查,将正常的AP和有问题的AP各拆一台,并互换,排查是否线路问题,但是正常的AP仍能正常发现,问题AP问题依旧;
8)、最后将问题AP直接连到POE交换机上,发现备AC仍旧无法发现该AP;
9)、当前研发给出抓包方案进行定位丢包点,建议客户在接入上联口抓包,和核心与备AC互联口抓包
3、故障进展:
故障APping正常主AC互联地址和网关能够ping通,并且在接入交换机能够查看到icmp报文;但故障APping故障备AC互联地址,无法ping通,在接入和核心上抓包均能够查看AP发送的免费ARP报文,但一直未有回应,当前怀疑是ARP请求未到达备AC控制面,进一步排查环境问题。
经过排查,定位是备ac跟思科的核心聚合口导致的故障,拔掉聚合线的一条后问题解决。思科核心是两台设备做的虚拟化,每台设备上拿一个口做聚合,将聚合口移到同一台设备上之后,开始ap正常,一段时间后又出现掉线问题,定位问题还是在聚合上。
4、故障解决:
思科设备上聚合口里面一个配置了广播控制一个没配导致的故障,另外一个接口也配置后问题解决。
故障四 终端连接无线出现连接异常,无法正常连接到对应的ssid
【故障现象】
终端连接无线出现连接异常,无法正常连接到对应的ssid;
【故障分析】
1、到AC上通过show ap-config summary | in xxx 确认此AP连接了多少人,发现该区域AP连接人数一直为0。
2、登录到ap上发现ap上只有用户发送认证请求的日志;
3、查看异常AP的capwap数据通道报文信息:
CRT01_M8600E-WS_Master#show cwk tunnel 379(379为隧道建立的index编号,show cap state | I 10.101.1.188)
CRT01_M8600E-WS_Master#ter monitor
查看报文信息发现,AC在丢弃接收的报文,且丢弃的报文一直在增值,怀疑是否是主备配置导致的问题,检查主备配置发现配置不一致。
【故障解决方案及总结】
通过修正主备配置,并重启ap后,故障现象消失。
在AC做热备是,需要特别注意主备配置的一致性,避免因为主备配置引起不必要的问题。
通常情况下主备配置不一致,较为常见的故障有:
(1) AP在线数不一致,部分ap只在一台AC上上线;
(2) 终端无法连接上无线,终端无法获取IP地址等;
热备场景部署注意事项:
热备部署,必须保证show ap-c run完全一致,show run除IP地址等特殊配置不一致外其他配置一致。
故障五、巡检发现用户搜索不到无线信号
1、故障现象
AP上线后,用户搜索不到无线信号
2、网络环境
简化:AP530-----POE交换机-------中间设备------WS卡
3、故障原因
(1)主备AC配置不一致导致AP没有发出SSID,用户搜索不到无线信号
4、处理步骤
(1)现场查看,发现AP信号灯正常
(2)telnet登陆主备AC,show ap-config summary | include Dong4Lou,分别查看AP状态,均正常
(3)telnet登陆AP,show dot11 mbssid 命令查看是否发出信号
(4)Ruijie#show dot11 mbssid --->没有任何输出
(5)telnet登陆主备AC,show run | begin ap-group Dong4Lou,分别查看东四楼的ap组是否配置
(6)ap组均有配置,查看热备实例下是否添加对应的ap-group,show run | be wlan hot-backup
(7)备AC上添加对应楼栋的ap-group后,AP重新关联上线,再登陆ap查看正常发出ssid,用户可以正常关联上线
5、故障解决
绑定对应楼栋的ap-group到热备实例下,AP重新关联上线后故障解决。
6、故障总结及注意点
1)热备环境中必须强制要求主备配置一致,否则可能出现各种不可预知的问题;
2)新增楼栋AP上线时,需规范配置。